智能论文笔记

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

The PWLR Graph Representation: A Persistent Weisfeiler-Lehman scheme with Random Walks for Graph Classification

Sun Woo Park , Yun Young Choi , Dosang Joe , U Jin Choi , Youngho Woo

分类：机器学习

2022-08-29

本文介绍了持续的Weisfeiler-Lehman随机步行方案（缩写为PWLR），用于图形表示，这是一个新型的数学框架，可生成具有离散和连续节点特征的图形的可解释的低维表示。提出的方案有效地结合了归一化的Weisfeiler-Lehman程序，在图形上随机行走以及持续的同源性。因此，我们整合了图形的三个不同属性，即局部拓扑特征，节点度和全局拓扑不变，同时保留图形扰动的稳定性。这概括了Weisfeiler-Lehman过程的许多变体，这些变体主要用于嵌入具有离散节点标签的图形。经验结果表明，可以有效地利用这些表示形式与最新的技术产生可比较的结果，以分类具有离散节点标签的图形，并在对具有连续节点特征的人分类中增强性能。

translated by 谷歌翻译

HTML版本

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion Probabilistic Model

Jeongjun Choi , Dongseok Shim , H. Jin Kim

分类：计算机视觉

2022-12-06

Thanks to the development of 2D keypoint detectors, monocular 3D human pose estimation (HPE) via 2D-to-3D uplifting approaches have achieved remarkable improvements. Still, monocular 3D HPE is a challenging problem due to the inherent depth ambiguities and occlusions. To handle this problem, many previous works exploit temporal information to mitigate such difficulties. However, there are many real-world applications where frame sequences are not accessible. This paper focuses on reconstructing a 3D pose from a single 2D keypoint detection. Rather than exploiting temporal information, we alleviate the depth ambiguity by generating multiple 3D pose candidates which can be mapped to an identical 2D keypoint. We build a novel diffusion-based framework to effectively sample diverse 3D poses from an off-the-shelf 2D detector. By considering the correlation between human joints by replacing the conventional denoising U-Net with graph convolutional network, our approach accomplishes further performance improvements. We evaluate our method on the widely adopted Human3.6M and HumanEva-I datasets. Comprehensive experiments are conducted to prove the efficacy of the proposed method, and they confirm that our model outperforms state-of-the-art multi-hypothesis 3D HPE methods.

translated by 谷歌翻译

AIM 2022 Challenge on Super-Resolution of Compressed Image and Video: Dataset, Methods and Results

Ren Yang , Radu Timofte , Xin Li , Qi Zhang , Lin Zhang , Fanglong Liu , Dongliang He , Fu li , He Zheng , Weihang Yuan

分类：计算机视觉

2022-08-23

本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率，轨迹〜2靶向压缩视频的超分辨率。在轨道1中，我们使用流行的数据集DIV2K作为培训，验证和测试集。在轨道2中，我们提出了LDV 3.0数据集，其中包含365个视频，包括LDV 2.0数据集（335个视频）和30个其他视频。在这一挑战中，有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。

translated by 谷歌翻译

Improved Image Classification with Token Fusion

Keong Hun Choi , Jin Woo Kim , Yao Wang , Jong Eun Ha

分类：计算机视觉 | 人工智能

2022-08-19

在本文中，我们提出了一种使用CNN和变压器结构融合以提高图像分类性能的方法。对于CNN，可以很好地提取有关图像上局部区域的信息，但是限制了全局信息的提取。另一方面，变压器在相对全局的提取方面具有优势，但缺点是因为它需要大量的内存来进行本地特征值提取。在图像的情况下，它通过CNN转换为特征映射，每个特征映射的像素都被视为令牌。同时，将图像分为贴片区域，然后与将其视为令牌视图的变压器方法融合在一起。对于令牌与两个不同特征的融合，我们提出了三种方法：（1）具有平行结构的晚令融合，（2）早期令牌融合，（3）逐层中的令牌融合。在使用Imagenet 1K的实验中，提出的方法显示了最佳的分类性能。

translated by 谷歌翻译

Global-local Motion Transformer for Unsupervised Skeleton-based Action Learning

Boeun Kim , Hyung Jin Chang , Jungho Kim , Jin Young Choi

分类：计算机视觉 | 人工智能

2022-07-13

我们提出了一个新的变压器模型，用于无监督学习骨架运动序列的任务。用于基于无监督骨骼的动作学习的现有变压器模型被了解到每个关节从相邻帧的瞬时速度没有全球运动信息。因此，该模型在学习全身运动和暂时遥远的关节方面的关注方面存在困难。此外，模型中尚未考虑人与人之间的互动。为了解决全身运动，远程时间动态和人与人之间的互动的学习，我们设计了一种全球和本地的注意机制，在其中，全球身体动作和本地关节运动相互关注。此外，我们提出了一种新颖的预处理策略，即多间隔姿势位移预测，以在不同的时间范围内学习全球和本地关注。提出的模型成功地学习了关节的局部动力学，并从运动序列中捕获了全局上下文。我们的模型优于代表性基准中明显边缘的最先进模型。代码可在https://github.com/boeun-kim/gl-transformer上找到。

translated by 谷歌翻译

Learning Local Implicit Fourier Representation for Image Warping

Jaewon Lee , Kwang Pyo Choi , Kyong Hwan Jin

分类：计算机视觉

2022-07-05

图像翘曲的目的是将矩形网格定义的图像重新设计为任意形状。最近，隐式神经功能在以连续方式表示图像时表现出了显着的性能。然而，独立的多层感知器受到学习高频傅立叶系数的影响。在本文中，我们提出了图像翘曲（LTEW）的局部纹理估计器，然后提出隐式神经表示，以将图像变形为连续形状。从深度超分辨率（SR）主链估计的局部纹理乘以坐标转换的局部变化雅各布矩阵，以预测扭曲的图像的傅立叶响应。我们的基于LTEW的神经功能优于现有的扭曲方法，用于不对称尺度的SR和跨术变换。此外，我们的算法很好地概括了任意坐标变换，例如具有较大放大因子和等应角投影（ERP）的透视变换，这些变换在训练中未提供。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

The Majority Can Help The Minority: Context-rich Minority Oversampling for Long-tailed Classification

Seulki Park , Youngkyu Hong , Byeongho Heo , Sangdoo Yun , Jin Young Choi

分类：计算机视觉 | 人工智能

2021-12-01

类别不平衡数据的问题在于，由于少数类别的数据缺乏数据，分类器的泛化性能劣化。在本文中，我们提出了一种新的少数民族过度采样方法，通过利用大多数类作为背景图像的丰富背景来增加多元化的少数民族样本。为了使少数民族样本多样化，我们的主要思想是将前景补丁从少数级别粘贴到来自具有富裕环境的多数类的背景图像。我们的方法很简单，可以轻松地与现有的长尾识别方法结合。我们通过广泛的实验和消融研究证明了提出的过采样方法的有效性。如果没有任何架构更改或复杂的算法，我们的方法在各种长尾分类基准上实现了最先进的性能。我们的代码将在链接上公开提供。

translated by 谷歌翻译